文本到文本变压器在多任务转移学习的任务中表现出色,尤其是在自然语言处理(NLP)方面。但是,尽管已经有几次尝试在不同域上训练变压器,但这些域之间通常存在明确的关系,例如,代码摘要,自然语言摘要描述了代码。很少有尝试研究多任务转移学习如何在显着不同领域的任务上工作的方法。在这个项目中,我们使用多域文本到文本传输变压器(MD-T5)在两个域中的四个域 - Python Code和Chess上研究了多域,多任务学习的行为。我们使用三种流行的培训策略进行了广泛的实验:BERT风格的联合预处理 +连续的登录,GPT式关节预处理 +连续登录以及GPT风格的关节预处理 +关节登录。此外,我们评估了四个指标的模型 - 播放得分,评估得分,BLEU得分和多域学习分数(MDLS)。这些指标衡量各种任务和多域学习的性能。我们表明,尽管负面的知识转移和灾难性遗忘仍然是所有模型的巨大挑战,但GPT风格的联合预处理 +联合登录策略在多域,多任务学习中表现出最大的希望,因为它在所有四个任务中都表现良好同时仍保持其多域知识。
translated by 谷歌翻译